مدلسازی تنوعات تلفظی آوایی به منظور ایجاد واژگان پویای تطبیقی در سیستم بازشناسی گفتار پیوسته
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی
- نویسنده بهرام وزیرنژاد
- استاد راهنما فرشاد الماس گنج محمد احدی
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1387
چکیده
در این رساله به ارائه روشهایی برای مدلسازی تلفظ در واژگان برای بهبود عملکرد سیستم بازشناسی گفتار پیوسته پرداختیم. تلفظ تحت تاثیر عوامل متعددی از جمله عوامل وابسته به گوینده و مستقل از گوینده می باشد. این عوامل می توانند موضعی و فرا موضعی باشند. بخشی از تحقیق حاضر به بررسی آماری میزان و نحوه تاثیر این عوامل از جمله نرخ بیان، احتمال وقوع کلمه، جایگاه هجا در کلمه، موضع تکیه در کلمه روی تلفظ در گفتار پیوسته تخصیص یافته است. در بخشهای بعدی با در نظر داشتن این عوامل به طراحی و آموزش مدل های تلفظی پرداختیم. مدل های ترکیبی آماری بعنوان یک مدل با کارایی بالا در این رساله طراحی و معرفی گردیدند. این مدل ها ترکیبی از قواعد تلفظی و درخت های تصمیم تعمیم یافته می باشند. نام درخت های تصمیم تعمیم یافته ناظر به این واقعیت است که هر یک از این درخت های تصمیم برای گروهی از کلمات با ساختار هجایی مشابه طراحی و آموزش می یابند و از این طریق اطلاعات تلفظ روی این گروه از کلمات را برای آموزش خود استفاده می نمایند. در تحقیقات مشابه تا کنون هر درخت تصمیم برای یک کلمه واحد طراحی و آموزش داده می شد. این نکته باعث قابلیت منحصر به فرد این نوع طراحی در آموزش درخت ها با استفاده از دادگانی با حجم محدود است که با راهکار های قبلی هرگز امکان پذیر نبود. ضمنا برای هر کلمه جدید که در دادگان آموزش دیده نشده است نیازی به آموزش مدل جدید نیست و درخت های موجود قادرند گونه های تلفظی آن را تولید نمایند. قواعد تلفظی بعنوان دومین قطعه از مدل های ترکیبی نیز بطور ذاتی قادرند اطلاعات تلفظ وابسته به متن واجی را از دادگانی با حجم متوسط یاد گیرند. مدل های ترکیبی در سه نوع ارائه گردیدند. نوع اول از این مدل های موسوم به مدل های ترکیبی ایستا برای تولید گونه های تلفظی کلمات از ساختار هجایی کلمه، هویت واج ها در مواضع مختلف، احتمال وقوع کلمه، جایگاه هجا در کلمه، موضع تکیه در کلمه و زمینه واجی برای تولید واژگان حاوی گونه های تلفظ بهره می برند. استفاده از واژگان حاصل از این مدل ها منجر به بهبودی معادل با 4/4% نسبت به واژگان مرجع در صحت بازشناسی گفتار شد. مدل های ترکیبی پویا علاوه بر این عوامل، نرخ صحبت را در تولید واژگان مورد نظر قرار می دادند. بهره گیری از این دسته از واژگان منجر به بهبودی معادل با 3/6% نسبت به واژگان مرجع در صحت بازشناسی گفتار پیوسته شد. در آخرین بخش از این رساله با توجه به اهمیت گوینده در بروز تنوعات تلفظی به ارائه قواعد تلفظی تطبیق یافته به گوینده در مدل های ترکیبی پویا پرداختیم و از این طریق مدل هایی را طراحی نمودیم که به نحو موثری ویژگی های گوینده را در تولید دسته های واژگانی حاوی تلفظ مورد استفاده قرار می دهند. با بکارگیری مدل های ترکیبی پویای تطبیقی در سیستم بازشناسی گفتار پیوسته بهبودی معادل با 1/8% تا 1/10% نسبت به واژگان مرجع در سیستم بازشناسی گفتار پیوسته مشاهده شد.
منابع مشابه
مدلسازی وابسته به متن در بازشناسی گفتار پیوسته بر اساس در خت تصمیم گیری آوایی فارسی
مدلسازی وابسته به متن به عنوان شیوه ای مفید برای افزایش دقت مدلسازی در بازشناسی گفتار پیوسته مورد توجه است. معمولترین شکل پیاده سازی این شیوه، استفاده از مدلهای سه آوایی است. با این همه، تعداد زیاد این مدلها موجب می شود که در عمل، آموزش سیستم با مشکلات زیادی همراه باشد و دستیابی به آموزش مقاوم (robust training) به سختی میسر گشته یا اصولا مقدور نشود. یکی از شیوه های حل این مشکل، استفاده از روش گ...
متن کاملمقاوم سازی سیستم بازشناسی گفتار پیوسته
دقت سیستم¬های بازشناسی گفتار در محیط¬های آزمایشگاهی و کنترل شده به میزان قابل قبولی افزایش یافته و امروزه شاهد استفاده از این سیستم¬ها در محیط¬های واقعی هستیم. با این حال، کارایی این سیستم¬ها در حضور نویز به دلیل عدم تطابق بین شرایط و محیط آموزشی و آزمون به شدت افت می¬کند. علاوه بر این، تنوع مشخصه¬های گفتاری گویندگان نیز بر کارایی این سیستم¬ها تاثیرگذار است. در سال¬های اخیر، عمده پژوهش¬های صورت...
بهبود عملکرد سیستم بازشناسی گفتار پیوسته بوسیله ویژگیهای استخراج شده از مانیفولدهای گفتاری در فضای بازسازی شده فاز
The design for new feature extraction methods out of the speech signal and combination of their obtained information is one of the most effective approaches to improve the performance of automatic speech recognition (ASR) system. Recent researches have been shown that the speech signal contains nonlinear and chaotic properties, but the effects of these properties are not used in the continuous ...
متن کاملطراحی ساختاری بر پایه شبکه پویای بیز به منظور بازشناخت گفتار پیوسته
اصلی ترین مدلی که تاکنون در بازشناخت گفتار مورد استفاده قرار گرفته، مدل نهان مارکف است که از دقت خوبی برخوردار است اما حساسیت بالایی نسبت به نویز دارد. بر این اساس اخیرا از مدل شبکه های پویای بیز که گسترش یافته مدل نهان مارکف است, استفاده گردیده است. این مدل نه تنها در زمینه پایداری در برابر نویز که مد نظر ماست استفاده شده, بلکه در هر زمینه ای که اطلاعاتی چندگانه لازم به استفاده بوده است, به عن...
بازشناسی احساس از روی گفتار پیوسته فارسی
در سالهای اخیر بازشناسی احساس به عنوان روش جدیدی برای تعامل انسان با کامپیوتر مورد توجه و موضوع تحقیقات زیادی بوده است. احساس، در قالب حرکات چهره، گفتار، حرکات دست و بدن و علایم زیستی مانند ضربان قلب بروز می یابد. مدل پیشنهادی در این پایان نامه از گفتار پیوسته فارسی برای بازشناسی احساس استفاده می کند. بازشناسی احساس از گفتار بر روی زبان های مختلفی انجام شده اما بر روی زبان فارسی تا کنون این چن...
بازشناسی گفتار پیوسته فارسی به کمک شبکه های عصبی
گفتار محصول سیستمهای تولید و درک گفتار و مغز انسان است . انسان همیشه از طریق گفت و شنود توانسته است ارتباط بهتری با محیط خود برقرار کند. بنابراین اگر بتوان از کامپیوتر بصورت سمعی و بصری بهره گرفت ، تحول بزرگی در استفاده از آنها بوجود می آید. در این پروژه، بمنظور طراحی روشهایی در بازشناخت گفتار پیوسته فارسی، شبکه های عصبی بعنوان ابزار مدلسازی انتخاب شده اند. در بخش نخست اجرای پروژه، با هدف دستیا...
15 صفحه اولمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023